26 research outputs found

    Clustering of scientific fields by integrating text mining and bibliometrics.

    Get PDF
    De toenemende verspreiding van wetenschappelijke en technologische publicaties via het internet, en de beschikbaarheid ervan in grootschalige bibliografische databanken, leiden tot enorme mogelijkheden om de wetenschap en technologie in kaart te brengen. Ook de voortdurende toename van beschikbare rekenkracht en de ontwikkeling van nieuwe algoritmen dragen hiertoe bij. Belangrijke uitdagingen blijven echter bestaan. Dit proefschrift bevestigt de hypothese dat de nauwkeurigheid van zowel het clusteren van wetenschappelijke kennisgebieden als het classificeren van publicaties nog verbeterd kunnen worden door het integreren van tekstontginning en bibliometrie. Zowel de tekstuele als de bibliometrische benadering hebben voor- en nadelen, en allebei bieden ze een andere kijk op een corpus van wetenschappelijke publicaties of patenten. Enerzijds is er een schat aan tekstinformatie aanwezig in dergelijke documenten, anderzijds vormen de onderlinge citaties grote netwerken die extra informatie leveren. We integreren beide gezichtspunten en tonen hoe bestaande tekstuele en bibliometrische methoden kunnen verbeterd worden. De dissertatie is opgebouwd uit drie delen: Ten eerste bespreken we het gebruik van tekstontginningstechnieken voor informatievergaring en voor het in kaart brengen van kennis vervat in teksten. We introduceren en demonstreren het raamwerk voor tekstontginning, evenals het gebruik van agglomeratieve hiërarchische clustering. Voorts onderzoeken we de relatie tussen enerzijds de performantie van het clusteren en anderzijds het gewenste aantal clusters en het aantal factoren bij latent semantische indexering. Daarnaast beschrijven we een samengestelde, semi-automatische strategie om het aantal clusters in een verzameling documenten te bepalen. Ten tweede behandelen we netwerken die bestaan uit citaties tussen wetenschappelijke documenten en netwerken die ontstaan uit onderlinge samenwerkingsverbanden tussen auteurs. Dergelijke netwerken kunnen geanalyseerd worden met technieken van de bibliometrie en de grafentheorie, met als doel het rangschikken van relevante entiteiten, het clusteren en het ontdekken van gemeenschappen. Ten derde tonen we de complementariteit aan van tekstontginning en bibliometrie en stellen we mogelijkheden voor om beide werelden op correcte wijze te integreren. De performantie van ongesuperviseerd clusteren en van classificeren verbetert significant door het samenvoegen van de tekstuele inhoud van wetenschappelijke publicaties en de structuur van citatienetwerken. Een methode gebaseerd op statistische meta-analyse behaalt de beste resultaten en overtreft methoden die enkel gebaseerd zijn op tekst of citaties. Onze geïntegreerde of hybride strategieën voor informatievergaring en clustering worden gedemonstreerd in twee domeinstudies. Het doel van de eerste studie is het ontrafelen en visualiseren van de conceptstructuur van de informatiewetenschappen en het toetsen van de toegevoegde waarde van de hybride methode. De tweede studie omvat de cognitieve structuur, bibliometrische eigenschappen en de dynamica van bio-informatica. We ontwikkelen een methode voor dynamisch en geïntegreerd clusteren van evoluerende bibliografische corpora. Deze methode vergelijkt en volgt clusters doorheen de tijd. Samengevat kunnen we stellen dat we voor de complementaire tekst- en netwerkwerelden een hybride clustermethode ontwerpen die tegelijkertijd rekening houdt met beide paradigma's. We tonen eveneens aan dat de geïntegreerde zienswijze een beter begrip oplevert van de structuur en de evolutie van wetenschappelijke kennisgebieden.SISTA;

    Do material transfer agreements affect the choice of research agendas? The case of biotechnology in Belgium

    Get PDF
    In this paper we examine whether and to what extent material transfer agreements influence research agenda setting in biotechnology. Research agendas are mapped through patents, articles, letters, reviews, and notes. Three groups are sampled: (1) documents published by government and industry which used research materials received through those agreements, (2) documents published by government and industry which used in-house materials, (3) documents published by academia. Methodologically, a co-word analysis is performed to detect if there is a difference in underlying scientific structure between the first two groups of documents. Secondly, interviews with practitioners of industry and government are intended to capture their opinion regarding the impact of the signed agreements on their own research agenda choices. The existence of synchronic and diachronic common terms between co-word clusters, stemming from the first two groups of publications, suggests cognitive linkage. Moreover, interviewees generally do not consider themselves constrained in research agenda setting when signing agreements for receiving research materials. Finally, after applying a co-word analysis to detect if the first group of documents overlaps with the third group we cannot conclude that agreements signed by industry and government affect research agenda setting in academi

    Clustering of scientific fields by integrating text mining and bibliometrics

    No full text
    De toenemende verspreiding van wetenschappelijke en technologische publicaties via het internet, en de beschikbaarheid ervan in grootschalige bibliografische databanken, leiden tot enorme mogelijkheden om de wetenschap en technologie in kaart te brengen. Ook de voortdurende toename van beschikbare rekenkracht en de ontwikkeling van nieuwe algoritmen dragen hiertoe bij. Belangrijke uitdagingen blijven echter bestaan. Dit proefschrift bevestigt de hypothese dat de nauwkeurigheid van zowel het clusteren van wetenschappelijke kennisgebieden als het classificeren van publicaties nog verbeterd kunnen worden door het integreren van tekstontginning en bibliometrie. Zowel de tekstuele als de bibliometrische benadering hebben voor- en nadelen, en allebei bieden ze een andere kijk op een corpus van wetenschappelijke publicaties of patenten. Enerzijds is er een schat aan tekstinformatie aanwezig in dergelijke documenten, anderzijds vormen de onderlinge citaties grote netwerken die extra informatie leveren. We integreren beide gezichtspunten en tonen hoe bestaande tekstuele en bibliometrische methoden kunnen verbeterd worden. De dissertatie is opgebouwd uit drie delen: Ten eerste bespreken we het gebruik van tekstontginningstechnieken voor informatievergaring en voor het in kaart brengen van kennis vervat in teksten. We introduceren en demonstreren het raamwerk voor tekstontginning, evenals het gebruik van agglomeratieve hiërarchische clustering. Voorts onderzoeken we de relatie tussen enerzijds de performantie van het clusteren en anderzijds het gewenste aantal clusters en het aantal factoren bij latent semantische indexering. Daarnaast beschrijven we een samengestelde, semi-automatische strategie om het aantal clusters in een verzameling documenten te bepalen. Ten tweede behandelen we netwerken die bestaan uit citaties tussen wetenschappelijke documenten en netwerken die ontstaan uit onderlinge samenwerkingsverbanden tussen auteurs. Dergelijke netwerken kunnen geanalyseerd worden met technieken van de bibliometrie en de grafentheorie, met als doel het rangschikken van relevante entiteiten, het clusteren en het ontdekken van gemeenschappen. Ten derde tonen we de complementariteit aan van tekstontginning en bibliometrie en stellen we mogelijkheden voor om beide werelden op correcte wijze te integreren. De performantie van ongesuperviseerd clusteren en van classificeren verbetert significant door het samenvoegen van de tekstuele inhoud van wetenschappelijke publicaties en de structuur van citatienetwerken. Een methode gebaseerd op statistische meta-analyse behaalt de beste resultaten en overtreft methoden die enkel gebaseerd zijn op tekst of citaties. Onze geïntegreerde of hybride strategieën voor informatievergaring en clustering worden gedemonstreerd in twee domeinstudies. Het doel van de eerste studie is het ontrafelen en visualiseren van de conceptstructuur van de informatiewetenschappen en het toetsen van de toegevoegde waarde van de hybride methode. De tweede studie omvat de cognitieve structuur, bibliometrische eigenschappen en de dynamica van bio-informatica. We ontwikkelen een methode voor dynamisch en geïntegreerd clusteren van evoluerende bibliografische corpora. Deze methode vergelijkt en volgt clusters doorheen de tijd. Samengevat kunnen we stellen dat we voor de complementaire tekst- en netwerkwerelden een hybride clustermethode ontwerpen die tegelijkertijd rekening houdt met beide paradigma's. We tonen eveneens aan dat de geïntegreerde zienswijze een beter begrip oplevert van de structuur en de evolutie van wetenschappelijke kennisgebieden.Abstract iii Korte inhoud v Nederlandse samenvatting vii Publication list xxxi List of acronyms xxxiii Contents xxxv 1 Introduction 1 1.1 General context 4 1.2 Motivation: text world vs. graph world 10 1.2.1 Text world 14 1.2.2 Graph world 16 1.3 Clustering 18 1.4 Contributions 23 1.5 Dissertation structure 26 2 Text mining 29 2.1 Representation of textual data 31 2.1.1 Text extraction 31 2.1.2 Vector Space Model 31 2.1.3 Indexing 35 2.1.4 Weighting 37 2.2 Dimensionality reduction and semantics 38 2.2.1 Curse of dimensionality 38 2.2.2 Feature selection 39 2.2.3 Latent Semantic Indexing 40 2.2.4 Random Indexing 43 2.2.5 Multidimensional scaling 44 2.3 Clustering 44 2.3.1 Algorithm 45 2.3.2 Evaluation and validation 45 2.3.3 Optimal number of clusters 47 2.3.4 Second-order similarities 54 2.4 Co-word analysis. MTA and research agenda setting 55 2.4.1 Introduction 55 2.4.2 Material transfer agreements 56 2.4.3 Data 56 2.4.4 Methodology 57 2.4.5 Results and discussion 60 2.4.6 Concluding remarks 62 2.5 Towards mapping library and information science 62 2.5.1 Introduction 62 2.5.2 Main objectives 63 2.5.3 Material and methods 63 2.5.4 Results 66 2.5.5 Comparing journals and clusters 76 2.5.6 Discussion and conclusion 77 2.6 Concluding remarks 78 3 Bibliometrics and network analysis 81 3.1 Introduction 83 3.2 Citation analysis 84 3.2.1 Science Citation Index Expanded 85 3.2.2 Cited reference characteristics 85 3.2.3 Citation graphs 85 3.2.4 Co-citation 86 3.2.5 Bibliographic coupling 87 3.2.6 Mean Observed and Mean Expected Citation Rate 88 3.2.7 Impact Factor 88 3.2.8 Hirsch-index 88 3.3 Scientific collaboration 89 3.3.1 Co-authorship networks 89 3.3.2 Interorganizational collaboration 90 3.4 Link-based ranking algorithms 90 3.4.1 HITS 92 3.4.2 PageRank 93 3.4.3 Stability 93 3.5 Graph partitioning and community structure detection 94 3.6 Bibliometric analysis of bioinformatics 96 3.6.1 Introduction 96 3.6.2 Journal coverage of bioinformatics literature in the SCIE 97 3.6.3 Evolution of publication output and citation impact 99 3.6.4 Global collaboration networks 103 3.6.5 Discussion 107 3.7 Concluding remarks 107 4 Hybrid analysis combining text mining and bibliometrics 109 4.1 Introduction 109 4.1.1 Related research 111 4.1.2 Overview of the chapter 112 4.2 Mapping by serial combination of text mining and bibliometrics 113 4.2.1 Introduction 114 4.2.2 Methods 114 4.2.3 Material 116 4.2.4 Clustering of scientometrics in 2003 116 4.2.5 Serial combination of text-based clustering and bibliometrics118 4.2.6 Concluding remarks 118 4.3 Integrating text and bibliometric information 120 4.3.1 Weighted linear combination of distance matrices 122 4.3.2 Fisher’s inverse chi-square method 124 4.3.3 Integrated Random Indexing 129 4.4 Assessing various integration schemes for text & link information 130 4.4.1 Introduction 130 4.4.2 Material 131 4.4.3 Methods 131 4.4.4 Discussion of results 133 4.4.5 Conclusion 135 4.5 Hybrid mapping of library and information science 136 4.5.1 Introduction 136 4.5.2 Data set 136 4.5.3 Methodology 137 4.5.4 Results 137 4.5.5 Concluding remarks 152 4.6 Bibliometric retrieval 152 The delineation of the research field bioinformatics 153 4.7 Concluding remarks 155 5 Dynamic hybrid mapping of bioinformatics 157 5.1 Material and methods 159 5.1.1 Text analysis 159 5.1.2 Citation analysis 159 5.1.3 Hybrid analysis 159 5.1.4 Dynamic term networks 160 5.2 Hybrid clustering results 160 5.2.1 Cluster representation of the 5 most active countries 164 5.2.2 Author collaboration 165 5.2.3 ‘Naive’ dynamics 165 5.3 Dynamic hybrid clustering 170 5.3.1 Matching and tracking clusters through time 170 5.3.2 Chains of clusters 170 5.3.3 Comparing clusters with cluster chains 171 5.3.4 Term networks 174 5.3.5 Chain properties 174 5.3.6 Dynamics 178 5.3.7 The chain Systems Biology & molecular networks 179 5.3.8 Cross-chain citations 184 5.3.9 Impact 184 5.4 Concluding remarks 187 6 General conclusions and perspectives 189 6.1 Conclusions 189 6.1.1 Hybrid clustering 189 6.1.2 Dynamic hybrid clustering 191 6.1.3 Number of clusters and LSI factors 191 6.2 Further research 192 6.3 Perspectives 194 Bibliography 196 Curriculum vitae 210 A Textual journal profiles 213 B Bibliographic sources of papers subjected to analysis 215 C Representative publications for 9 bioinformatics clusters 217nrpages: 261status: publishe

    Dynamic hybrid clustering of bioinformatics by incorporating text mining and citation analysis

    No full text
    To unravel the concept structure and dynamics of the bioinformatics field, we analyze a set of 7401 publications from the Web of Science and MEDLINE databases, publication years 1981–2004. For delineating this complex, interdisciplinary field, a novel bibliometric retrieval strategy is used. Given that the performance of unsupervised clustering and classification of scientific publications is significantly improved by deeply merging textual contents with the structure of the citation graph, we proceed with a hybrid clustering method based on Fisher’s inverse chi-square. The optimal number of clusters is determined by a compound semi-automatic strategy comprising a combination of distance-based and stability-based methods. We also investigate the relationship between number of Latent Semantic Indexing factors, number of clusters, and clustering performance. The HITS and PageRank algorithms are used to determine representative publications in each cluster. Next, we develop a methodology for dynamic hybrid clustering of evolving bibliographic data sets. The same clustering methodology is applied to consecutive periods defined by time windows on the set, and in a subsequent phase chains are formed by matching and tracking clusters through time. Term networks for the eleven resulting cluster chains present the cognitive structure of the field. Finally, we provide a view on how much attention the bioinformatics community has devoted to the different subfields through time.status: publishe

    A hybrid mapping of information science.

    No full text
    Previous studies have shown that hybrid clustering methods that incorporate textual content and bibliometric information can outperform clustering methods that use only one of these components. In this paper we apply a hybrid clustering method based on Fisher's inverse chi-square to integrate full-text with citations and to provide a mapping of the field of information science. We quantitatively and qualitatively asses the added value of such an integrated analysis and we investigate whether the clustering outcome is a better representation of the field by comparing with a text-only clustering and with another hybrid method based on linear combination of distance matrices. Our dataset consists of almost 1000 articles and notes published in the period 2002–2004 in 5 representative journals. The optimal number of clusters for the field is 5, determined by using a combination of distance-based and stability-based methods. Term networks present the cognitive structure of the field and are complemented by the most representative publications. Three large traditional sub-disciplines, particularly, information retrieval, bibliometrics/scientometrics, and more social aspects, and two smaller clusters about patent analysis and webometrics, can be distinguished.SISTA;

    Dynamic hybrid clustering of bioinformatics by incorporating text mining and citation analysis.

    No full text
    To unravel the concept structure and dynamics of the bioinformatics field, we analyze a set of 7401 publications from the Web of Science and MEDLINE databases, publication years 1981–2004. For delineating this complex, interdisciplinary field, a novel bibliometric retrieval strategy is used. Given that the performance of unsupervised clustering and classification of scientific publications is significantly improved by deeply merging textual contents with the structure of the citation graph, we proceed with a hybrid clustering method based on Fisher’s inverse chi-square. The optimal number of clusters is determined by a compound semi-automatic strategy comprising a combination of distance-based and stability-based methods. We also investigate the relationship between number of Latent Semantic Indexing factors, number of clusters, and clustering performance. The HITS and PageRank algorithms are used to determine representative publications in each cluster. Next, we develop a methodology for dynamic hybrid clustering of evolving bibliographic data sets. The same clustering methodology is applied to consecutive periods defined by time windows on the set, and in a subsequent phase chains are formed by matching and tracking clusters through time. Term networks for the eleven resulting cluster chains present the cognitive structure of the field. Finally, we provide a view on how much attention the bioinformatics community has devoted to the different subfields through time.SISTA;

    Combining full text and bibliometric information in mapping scientific disciplines

    No full text
    In the present study results of an earlier pilot study by Glenisson, Glanzel and Persson are extended on the basis of larger sets of papers. Full text analysis and traditional bibliometric methods are serially combined to improve the efficiency of the two individual methods. The text mining methodology already introduced in the pilot study is applied to the complete publication year 2003 of the journal Scientometrics. Altogether 85 documents that can be considered research articles or notes have been selected for this exercise. The outcomes confirm the main results of the pilot study, namely, that such hybrid methodology can be applied to both research evaluation and information retrieval. Nevertheless, Scientometrics documents published in 2003 cover a much broader and more heterogeneous spectrum of bibliometrics and related research than those analysed in the pilot study. A modified subject classification based on the scheme used in an earlier study by Schoepflin and Glanzel has been applied for validation purposes. (c) 2005 Elsevier Ltd. All rights reserved.status: publishe

    Co-clustering approaches to integrate lexical and bibliographical information

    No full text
    Terms are the building blocks to organize and access information, and hold a key position in information retrieval. In forthcoming work we have shown how a methodology of indexing full-text scientific articles combined with an exploratory statistical analysis can improve on bibliometric approaches to mapping science. Textual documents are indexed and further characterized using data mining techniques and co-word analysis. We start this paper by briefly demonstrating the text mining approach. Whereas statistical processing based on full-text documents provides a relational view based on the topicality represented by these documents, bibliometric components can include other characteristics that describe their position in the set. Therefore we extend on previous work and explore how hybrid methodologies that deeply combine text analysis and bibliometric methods can improve the mapping of science and technology. In particular, we propose a method to mathematically combine document similarity matrices resulting from vector-based indices on the one hand, and from selected bibliometric indicators on the other hand. Weighted linear combinations as well as approaches inspired on statistical meta-analysis are presented. Both pitfalls and possible solutions are discussed. The resulting combined similarity matrix offers an attractive way to 'co-cluster' documents based on both lexical and bibliographic information.status: publishe
    corecore